作为人类已知的最直观的界面之一,自然语言有可能调解许多涉及人类计算机互动的任务,尤其是在音乐信息检索等以应用程序为中心的领域。在这项工作中,我们探索了跨模式学习,以试图在音乐领域弥合音频和语言。为此,我们提出了Muscall,这是音乐对比的音频学习框架。我们的方法由双重编码架构组成,该体系结构了解音乐音频和描述性句子对之间的对齐方式,生成可用于文本到原告和音频到文本检索的多模式嵌入。多亏了这个属性,肌肉几乎可以转移到任何可以作为基于文本检索的任务转移到任何任务。我们的实验表明,我们的方法在检索音频时的性能要比基线要好得多,该音频与文本描述匹配,相反,与音频查询匹配的文本。我们还证明,我们的模型的多模式对齐能力可以成功扩展到零摄像转移方案,用于流派分类和在两个公共数据集上自动标记。
translated by 谷歌翻译
音乐信息检索的音频表示通常通过以特定于任务的方式通过监督学习来学习。虽然有效地产生最先进的结果,但该方案对于模型可以具有并且需要广泛的注释数据集的应用范围缺乏灵活性。在这项工作中,我们构成了是否可以利用弱对齐文本作为唯一用于学习通用音频音频表示的监督信号的问题。为了解决这个问题,我们设计了通过一组代理任务优化的音乐和语言预训练(Mulap)的多模式架构。弱监管以嘈杂的自然语言描述形式传达轨道的整体音乐纪念。在预训练之后,我们将模型的音频骨干转换为一组音乐音频分类和回归任务。我们通过比较通过不同培训策略产生的相同音频骨干声音产生的音频表示的性能并表明我们的预训练方法始终如一地实现所有任务和数据集所考虑的可比分数,因此证明了我们的方法。我们的实验还证实,Mulap有效利用音频标题对,以学习与文献中的音频和跨模型自我监督方法具有竞争力的表示。
translated by 谷歌翻译
We present SpaceQA, to the best of our knowledge the first open-domain QA system in Space mission design. SpaceQA is part of an initiative by the European Space Agency (ESA) to facilitate the access, sharing and reuse of information about Space mission design within the agency and with the public. We adopt a state-of-the-art architecture consisting of a dense retriever and a neural reader and opt for an approach based on transfer learning rather than fine-tuning due to the lack of domain-specific annotated data. Our evaluation on a test set produced by ESA is largely consistent with the results originally reported by the evaluated retrievers and confirms the need of fine tuning for reading comprehension. As of writing this paper, ESA is piloting SpaceQA internally.
translated by 谷歌翻译
尽管社交媒体中的Echo Chambers受到了相当大的审查,但仍缺少用于检测和分析的一般模型。在这项工作中,我们旨在通过提出一个概率的生成模型来填补这一空白,该模型通过一系列具有一定程度的回声室行为来解释社交媒体足迹(即社交网络结构和信息传播)。并以极性。具体而言,回声室被建模为可渗透到具有相似意识形态极性的信息的社区,并且对相反的倾向信息不渗透:这允许将回声室与缺乏明确意识形态保持一致的社区区分。为了了解模型参数,我们提出了对广义期望最大化算法的可扩展的随机适应,该算法优化了观察社会联系和信息传播的关节可能性。合成数据的实验表明,我们的算法能够及其具有回声室行为和意见极性的程度正确地重建地面真相社区。关于两极分化社会和政治辩论的现实数据的实验,例如英国脱欧公投或COVID-19疫苗运动,证实了我们提议在检测回声室方面的有效性。最后,我们展示了我们的模型如何提高辅助预测任务的准确性,例如立场检测和未来传播的预测。
translated by 谷歌翻译
胎儿镜检查激光​​光凝是一种广泛采用的方法,用于治疗双胞胎输血综合征(TTTS)。该过程涉及光凝病理吻合术以调节双胞胎之间的血液交换。由于观点有限,胎儿镜的可操作性差,可见性差和照明的可变性,因此该程序尤其具有挑战性。这些挑战可能导致手术时间增加和消融不完全。计算机辅助干预措施(CAI)可以通过识别场景中的关键结构并通过视频马赛克来扩展胎儿镜观景领域,从而为外科医生提供决策支持和背景意识。由于缺乏设计,开发和测试CAI算法的高质量数据,该领域的研究受到了阻碍。通过作为MICCAI2021内窥镜视觉挑战组织的胎儿镜胎盘胎盘分割和注册(FETREG2021)挑战,我们发布了第一个Largescale Multencentre TTTS数据集,用于开发广义和可靠的语义分割和视频摩擦质量algorithms。对于这一挑战,我们发布了一个2060张图像的数据集,该数据集是从18个体内TTTS胎儿镜检查程序和18个简短视频剪辑的船只,工具,胎儿和背景类别的像素通道。七个团队参与了这一挑战,他们的模型性能在一个看不见的测试数据集中评估了658个从6个胎儿镜程序和6个短剪辑的图像的图像。这项挑战为创建通用解决方案提供了用于胎儿镜面场景的理解和摩西式解决方案的机会。在本文中,我们介绍了FETREG2021挑战的发现,以及报告TTTS胎儿镜检查中CAI的详细文献综述。通过这一挑战,它的分析和多中心胎儿镜数据的发布,我们为该领域的未来研究提供了基准。
translated by 谷歌翻译
与脑电图(TMS-EEG)共同注册的经颅磁刺激先前已证明是对阿尔茨海默氏病(AD)研究的有用工具。在这项工作中,我们研究了使用TMS诱发的脑电图反应的使用,以对健康对照(HC)分类AD患者。通过使用包含17AD和17HC的数据集,我们从单个TMS响应中提取各种时域特征,并在低,中和高密度EEG电极集中平均它们。在保留一项受试者的验证方案中,使用带有随机森林分类器的高密度电极获得了AD与HC的最佳分类性能。准确性,灵敏度和特异性分别为92.7%,96.58%和88.2%。
translated by 谷歌翻译
在运输系统中引入信息和通信技术(ICT)导致了几个优势(运输,移动性,交通管理)。然而,它可能在增加安全挑战方面带来一些缺点,也与人类行为有关。作为一个例子,在过去的几十年中,尝试表征驱动程序的行为大多是针对性的。本文提出了一种安全的例程,一种范式,它使用驾驶员习惯来探讨驱动程序识别,特别是将车辆的所有者与其他驱动程序区分开来。我们根据机器学习技术与其他三项现有研究工作相结合评估安全的例程。结果是使用众所周知的指标来测量的,并显示安全的常规优于比较的作品。
translated by 谷歌翻译